关节2D心脏分割和3D体积重建是建立统计心脏解剖模型的基础,并了解运动模式的功能机制。但是,由于CINE MR和高主体间方差的平面分辨率低,精确分割心脏图像并重建3D体积是具有挑战性的。在这项研究中,我们提出了一个基于潜在空间的端到端框架DeepRecon,该框架会产生多个临床上基本的结果,包括准确的图像分割,合成高分辨率3D图像和3D重建体积。我们的方法确定了Cine图像的最佳潜在表示,其中包含心脏结构的准确语义信息。特别是,我们的模型共同生成具有准确的语义信息的合成图像,并使用最佳潜在表示对心脏结构进行分割。我们进一步探索了3D形状重建和4D运动模式通过不同的潜在空间操纵策略进行适应的下游应用。同时生成的高分辨率图像具有评估心脏形状和运动的高可解释价值。实验性结果证明了我们的有效性在多个方面的方法,包括2D分割,3D重建,下游4D运动模式适应性。
translated by 谷歌翻译
组合来自多视图图像的信息对于提高自动化方法的疾病诊断方法的性能和鲁棒性至关重要。但是,由于多视图图像的非对齐特性,跨视图的构建相关性和数据融合在很大程度上仍然是一个开放的问题。在这项研究中,我们提出了输血,这是一种基于变压器的体系结构,可使用卷积层和强大的注意机制合并不同的多视图成像信息。特别是,针对丰富的跨视图上下文建模和语义依赖性挖掘,提出了发散的融合注意(DIFA)模块,以解决从不同图像视图中捕获未对齐数据之间的长期相关性的关键问题。我们进一步提出了多尺度注意(MSA),以收集多尺度特征表示的全局对应关系。我们评估了心脏MRI(M \&MS-2)挑战队列中多疾病,多视图\&多中心右心室分段的输血。输血表明了针对最先进方法的领先绩效,并为多视图成像集成的新观点打开了稳健的医学图像分割。
translated by 谷歌翻译
自上而下的实例分割框架与自下而上的框架相比,它在对象检测方面表现出了优越性。虽然它有效地解决了过度细分,但自上而下的实例分割却遭受了过度处理问题。然而,完整的分割掩模对于生物图像分析至关重要,因为它具有重要的形态特性,例如形状和体积。在本文中,我们提出了一个区域建议纠正(RPR)模块,以解决这个具有挑战性的分割问题。特别是,我们提供了一个渐进式皇家模块,以逐渐将邻居信息引入一系列ROI。 ROI功能被馈入专门的进料网络(FFN)以进行提案框回归。有了其他邻居信息,提出的RPR模块显示了区域建议位置的校正显着改善,因此与最先进的基线方法相比,在三个生物图像数据集上表现出有利的实例分割性能。实验结果表明,所提出的RPR模块在基于锚固的和无锚的自上而下实例分割方法中有效,这表明该方法可以应用于生物学图像的一般自上而下实例分割。代码可用。
translated by 谷歌翻译
高分辨率表示对于基于视觉的机器人抓问题很重要。现有作品通常通过子网络将输入图像编码为低分辨率表示形式,然后恢复高分辨率表示。这将丢失空间信息,当考虑多种类型的对象或远离摄像机时,解码器引入的错误将更加严重。为了解决这些问题,我们重新审视了CNN的设计范式,以实现机器人感知任务。我们证明,与串行堆叠的卷积层相反,使用平行分支将是机器人视觉抓握任务的更强大设计。特别是,为机器人感知任务(例如,高分辨率代表和轻量级设计)提供了神经网络设计的准则,这些指南应对不同操纵场景中的挑战做出回应。然后,我们开发了一种新颖的抓地视觉体系结构,称为HRG-NET,这是一种平行分支结构,始终保持高分辨率表示形式,并反复在分辨率上交换信息。广泛的实验验证了这两种设计可以有效地提高基于视觉的握把和加速网络训练的准确性。我们在YouTube上的真实物理环境中显示了一系列比较实验:https://youtu.be/jhlsp-xzhfy。
translated by 谷歌翻译
这项工作提出了下一代人类机器人界面,只能通过视觉来推断和实现用户的操纵意图。具体而言,我们开发了一个集成了近眼跟踪和机器人操作的系统,以实现用户指定的操作(例如,抓取,拾取和位置等),在其中将视觉信息与人类的注意合并在一起,以创建为所需的映射机器人动作。为了实现视力指导的操纵,开发了一个头部安装的近眼跟踪设备,以实时跟踪眼球运动,以便可以确定用户的视觉注意力。为了提高抓地力性能,然后开发出基于变压器的GRASP模型。堆叠的变压器块用于提取层次特征,其中在每个阶段扩展了通道的体积,同时挤压了特征地图的分辨率。实验验证表明,眼球跟踪系统产生低的凝视估计误差,抓地力系统在多个握把数据集上产生有希望的结果。这项工作是基于凝视互动的辅助机器人的概念证明,该机器人具有巨大的希望,可以帮助老年人或上肢残疾在日常生活中。可在\ url {https://www.youtube.com/watch?v=yuz1hukyurm}上获得演示视频。
translated by 谷歌翻译
在视觉上评估生成的多元时间序列(MT)的优点很难实现,尤其是在生成模型是生成性对抗网络(GAN)的情况下。我们提出了一个名为高斯甘斯(Gaussian Gans)的通用框架,可在MTS生成任务下视觉评估使用自身。首先,我们试图通过明确重建GAN的体系结构来找到多元Kolmogorov Smirnov(MKS)测试中的转换函数。其次,我们进行了转化的MST的正态性测试,其中高斯gan是MKS检验中的转换函数。为了简化正态性测试,使用Chi Square分布提出了有效的可视化。在实验中,我们使用UNIMIB数据集并提供经验证据,表明使用高斯gans和Chi sqaure可视化的正态性测试是有效且可信的。
translated by 谷歌翻译
对于黑盒攻击,替代模型和受害者模型之间的差距通常很大,这表现为弱攻击性能。通过观察到,可以通过同时攻击多样的模型来提高对抗性示例的可传递性,并提出模型增强方法,这些模型通过使用转换图像模拟不同的模型。但是,空间域的现有转换不会转化为显着多样化的增强模型。为了解决这个问题,我们提出了一种新型的频谱模拟攻击,以针对正常训练和防御模型制作更容易转移的对抗性例子。具体而言,我们将频谱转换应用于输入,从而在频域中执行模型增强。从理论上讲,我们证明了从频域中得出的转换导致不同的频谱显着图,这是我们提出的指标,以反映替代模型的多样性。值得注意的是,我们的方法通常可以与现有攻击结合使用。 Imagenet数据集的广泛实验证明了我们方法的有效性,\ textit {e.g。},攻击了九个最先进的防御模型,其平均成功率为\ textbf {95.4 \%}。我们的代码可在\ url {https://github.com/yuyang-long/ssa}中获得。
translated by 谷歌翻译
在本文中,我们提出了一个基于变压器的架构,即TF-Grasp,用于机器人Grasp检测。开发的TF-Grasp框架具有两个精心设计的设计,使其非常适合视觉抓握任务。第一个关键设计是,我们采用本地窗口的注意来捕获本地上下文信息和可抓取对象的详细特征。然后,我们将跨窗户注意力应用于建模遥远像素之间的长期依赖性。对象知识,环境配置和不同视觉实体之间的关系汇总以进行后续的掌握检测。第二个关键设计是,我们构建了具有跳过连接的层次编码器架构,从编码器到解码器提供了浅特征,以启用多尺度功能融合。由于具有强大的注意力机制,TF-Grasp可以同时获得局部信息(即对象的轮廓),并建模长期连接,例如混乱中不同的视觉概念之间的关系。广泛的计算实验表明,TF-GRASP在康奈尔(Cornell)和雅克(Jacquard)握把数据集上分别获得了较高的结果与最先进的卷积模型,并获得了97.99%和94.6%的较高精度。使用7DOF Franka Emika Panda机器人进行的现实世界实验也证明了其在各种情况下抓住看不见的物体的能力。代码和预培训模型将在https://github.com/wangshaosun/grasp-transformer上找到
translated by 谷歌翻译
对于视频识别任务,总结了视频片段的整个内容的全局表示为最终性能发挥着重要作用。然而,现有的视频架构通常通过使用简单的全局平均池(GAP)方法来生成它,这具有有限的能力捕获视频的复杂动态。对于图像识别任务,存在证据表明协方差汇总具有比GAP更强的表示能力。遗憾的是,在图像识别中使用的这种普通协方差池是无数的代表,它不能模拟视频中固有的时空结构。因此,本文提出了一个时间 - 细心的协方差池(TCP),插入深度架构结束时,以产生强大的视频表示。具体而言,我们的TCP首先开发一个时间注意力模块,以适应性地校准后续协方差汇集的时空特征,近似地产生细心的协方差表示。然后,时间协方差汇总执行临界协方差表示的时间汇集,以表征校准特征的帧内相关性和帧间互相关。因此,所提出的TCP可以捕获复杂的时间动态。最后,引入了快速矩阵功率归一化以利用协方差表示的几何形状。请注意,我们的TCP是模型 - 不可知的,可以灵活地集成到任何视频架构中,导致TCPNet用于有效的视频识别。使用各种视频架构的六个基准(例如动力学,某事物和电力)的广泛实验显示我们的TCPNet明显优于其对应物,同时具有强大的泛化能力。源代码公开可用。
translated by 谷歌翻译
对抗攻击使他们的成功取得了“愚弄”DNN等,基于梯度的算法成为一个主流。基于线性假设[12],在$ \ ell_ \ infty $约束下,在梯度上应用于渐变的$符号$操作是生成扰动的良好选择。然而,存在来自这种操作的副作用,因为它导致真实梯度与扰动之间的方向偏差。换句话说,当前方法包含真实梯度和实际噪声之间的间隙,这导致偏置和低效的攻击。因此,在理论上,基于泰勒膨胀,偏差地分析了$ \符号$,即快速梯度非符号法(FGNM)的校正。值得注意的是,FGNM是一般例程,它可以在基于梯度的攻击中无缝地更换传统的$符号$操作,以可忽略的额外计算成本。广泛的实验证明了我们方法的有效性。具体来说,我们的大多数和\ textBF {27.5 \%}平均突出了它们,平均而言。我们的匿名代码是公开可用的:\ url {https://git.io/mm -fgnm}。
translated by 谷歌翻译